Вівторок, 5 Листопада, 2024

Церква, яка прихистила інтернетне минуле: Інтернет-архів зберігає 700 млрд веб-сторінок

Найперші сайти з інтернету початку 1990-х уже не існують, але і нещодавні веб-сторінки постійно зникають. Лише завдяки старовинній церкві, що стала місцем для Інтернет-архіву, існує можливість побачити сторінки, які існували ще тиждень чи місяць тому.

Архів Wayback Machine знаходиться у стінах красивої колишньої церкви в районі Річмонд у Сан-Франциско. Там шумлять і блимають від активності стійки комп’ютерних серверів. Вони містять учорашній інтернет, принаймні, значну його частину.

Некомерційна організація Internet Archive збирає веб-сторінки з 1996 року для свого знаменитого сервісу Wayback Machine. У 1997 році збірка склала 2 терабайти даних. Колосальний у той час об’єм, який зараз можна вмістити на флешку за 50 доларів.

Засновник архіву Брюстер Кале каже, що сьогодні обсяг проекту перевищує 100 петабайт. Це приблизно в 50 000 разів більше, ніж у 1997 році. Архів наразі містить понад 700 мільярдів веб-сторінок.

Місія Інтернет-архіву — надати універсальний доступ до всіх знань. Робота не стає легшою, адже сучасні веб-сайти дуже динамічні, змінюються з кожним оновленням.

Огороджені сади, такі як Facebook, є джерелом великого розчарування для Кале. Він хвилюється, що значна частина політичної діяльності, яка відбувалася на платформі, може бути втрачена в історії, якщо її не зафіксувати належним чином. Facebook та інші ускладнюють сканування своїх платформ.

Платні сайти ЗМІ також є «проблематичними», каже Кале. Раніше до архівування новин ставилися дуже серйозно, але зміни у власності чи навіть просто редизайн сайту можуть призвести до зникнення записів.

Технологічний журналіст Кара Свішер нещодавно поскаржилася, що деякі з її ранніх робіт у The Wall Street Journal пропали, після того як кілька років тому газета відмовилася продати їй матеріал.

Оскільки ми починаємо досліджувати можливості метавсесвіту, робота Інтернет-архіву стане ще більш складною. Його місія полягає в тому, щоб «надати універсальний доступ до всіх знань», архівуючи аудіо, відео, відеоігри, книги, журнали та програмне забезпечення.

Зараз сервіс працює над збереженням роботи незалежних інформаційних організацій в Ірані та зберігає випуски російських теленовин. Іноді збереження речей онлайн може бути актом справедливості, протесту чи відповідальності.

І все ж правовласники не хочуть надавати вільний доступ до контенту, і тому вони активно переконують,що Інтернет-архів не має права надавати матеріали. Наразі кілька великих книжкових видавців подають до суду через платформу видачі електронних книг «OpenLibrary», яка дозволяє користувачам позичати обмежену кількість електронних книг на термін до 14 днів. Видавці стверджують, що це шкодить доходам.

Кале каже, що це смішно. Він любить описувати завдання архіву як таке, що не відрізняється від традиційної бібліотеки. Але хоча книга не зникає з полиці, якщо видавець припиняє роботу, цифровий контент більш вразливий. Ви не можете мати шоу Netflix. Новинні статті існують лише до тих пір, поки видавці цього хочуть. Навіть пісні, завантаження яких ми платимо, рідко є нашими, вони просто ліцензовані.

Налаштований таким чином, що він не покладається ні на кого іншого, Internet Archive створив власну серверну інфраструктуру, більшу частину якої розміщено в церкві, а не використовує сторонні хости, такі як Amazon або Google. Усе це коштує 25 мільйонів доларів на рік. Це вигідна угода, каже Кейл, наголошуючи, що лише система публічних бібліотек Сан-Франциско коштує 171 мільйон доларів.

Якщо ми не вважаємо, що сьогоднішній перший проект історії не вартий збереження, зникнення Інтернету має непокоїти всіх нас. Подумайте, яким порожнім було б висвітлення смерті королеви Єлизавети, якби воно не було проілюстроване глибокими архівними матеріалами.

Чи можемо ми з упевненістю сказати, що журналістика, створена навколо її смерті, буде такою ж доступною навіть через 20 років? А що з усіх публікацій у соціальних мережах, які роблять звичайні люди? Ми пошкодуємо, що не зберегли грамотно «повсякденне» життя в Інтернеті.

До речі, коли почалася війна в Україні, кілька сотень бібліотекарів зрозуміли, що треба рятувати від війни українську культуру. Волонтери з інших країн намагаються врятувати хоча б цифрові копії артефактів української культури.

Наприклад, сайт Українського державного архіву Харкова – це понад 100 гігабайт інформації, включаючи записи перепису населення району, кримінальні справи та списки людей, які зазнали переслідувань в регіоні. Після створення його копії за кілька годин веб-сайт зник.

За матеріалами: Financial Times

Євген
Євген
Євген пише для TechToday з 2012 року. Інженер за освітою. Захоплюється реставрацією старих автомобілів.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися